Les données textuelles interprétables sont stockés au milieu des balises nommées respectivement title et description, ce qui nous permet de les extraire en ciblant les parties correspondantes.
Ainsi, nous allons utiliser les expressions régulières pour localiser les contenus utiles.
L'image ci-dessous montre comment les informations sont structurées dans un fichier xml.
Nous avons ainsi obtenu deux types de sortie, l'un est au format txt, l'autre en xml. Dans le script, nous avons utilisé la commande
open my $output_xml, ">:encoding(UTF-8)","./results/perl-bao1-$RUBRIQUE-corpus-titre-description.xml"pour distinguer le résultat de la BàO1 et celui de la BàO2.
Sortie txt | Sortie xml |
---|---|
téléchargement | téléchargement |
Comme sous Perl, nous y avons aussi obtenu deux types de sortie, Dans le script, nous avons utilisé la commande
output_txt=open(dir+'results'+f'py-{rubrique}-corpus-titre-description.txt', 'w', encoding='utf-8')pour distinguer le résultat de la BàO1 et celui de la BàO2.
Sortie txt |
---|
Sortie xml |